Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora ˆr możemy posłużyć się klasyfikatorem postaci { 1, jeżeli ˆr(x) > 1 ˆd(x) = 2, 0, pozatym.
Najprostszym modelem regresji jest model regresji liniowej Y =r(x)+ε = β 0 + p β j x j +ε, wktóryme(ε) =0. Model ten nie może być poprawny, ponieważ nie wymusza on Y =1lubY =0.Niemniejwwieluprzypadkachprowadziondo przyzwoitego klasyfikatora. j=1
NiechY = (Y 1,Y 2,...,Y n ) iniechxoznaczamacierz n (p +1)postaci X = 1 x 11... x 1p 1 x 21... x 2p... 1 x n1... x np. Wówczas model regresji liniowej możemy zapisać w postaci macierzowej gdzie ε = (ε 1,...,ε n ). Y =Xβ +ε,
Estymator najmniejszych kwadratów ma postać ˆβ = (X X) 1 X Y. Estymator ˆr(x) funkcji regresji ma postać p ˆr(x) = ˆβ 0 + ˆβ j x j. j=1
Rozważania te można uogólnić na przypadek, gdy liczba grup K 2iY= {1,2,...,K}.WtymprzypadkuetykietęYo wartościach 1 lub 0 musimy zastąpić etykietą wektorową Y = (Y 1,Y 2,...,Y K ) owartości (0,...,0,1,0,...,0),gdziejedynkawystępujenak-tymmiejscu jeśliobserwacjax ij = (x ij1,x ij2,...,x ijp ) pochodzizk-tejgrupy.
Model regresji liniowej należy wówczas zastąpić wielowymiarowym modelem liniowym regresji postaci Y =XB +E, gdzieyjestmacierząrozmiarun Kpostaci Y 11 Y 12... Y 1K Y = Y 12 Y 22... Y 2K..., Y n1 Y n2... Y nk B jest macierzą rozmiaru (p + 1) K nieznanych współczynników regresji,natomiastejestmacierząbłędówrozmiarun Ktaką,że jej wartością oczekiwaną jest macierz zerowa.
Estymator ˆB macierzy B uzyskany metodą najmniejszych kwadratów jest równy ˆB = (X X) 1 X Y. JeżeliY {1,2,...,K},toE(Y k X =x) =P(Y =k X =x). Zatemk-taskładowawektoraŶ(x)jestoceną prawdopodobieństwa a posteriori P(Y = k X = x) przynależności obserwacjixdok-tejgrupy,k=1,2,...,k.chociażŷ k (x)jest ocenąprawdopodobieństwap(y =k X =x),towartościŷ k (x) mogą wykraczać poza przedział [0, 1]. Uzyskujemy zatem klasyfikator postaci ˆd(x) =argmaxŷ k (x), k gdzieŷk(x)jestk-tąskładowąwektoraŷ(x).
Regresja logistyczna Alternatywą dla modelu regresji liniowej jest model regresji logistycznej.niech (X i,y i),gdziey i {1,0},i=1,2,...,n, będzie próbą uczącą. Model regresji logistycznej ma postać p i =P(Y i =1 X i =x i ) = exp(β 0 + p j=1 β jx ij ) 1+exp(β 0 + p j=1 β jx ij ), gdzie β = (β 0,β 1,...,β p ).
Regresja logistyczna Model ten możemy zapisać w postaci równoważnej jako p logit(p i ) = β 0 + β j x ij, j=1 gdzie ( ) p logit(p) = ln. 1 p
Regresja logistyczna Nazwa regresja logistyczna pochodzi stąd, że funkcja e x /(1+e x )nazywanajestfunkcjąlogistyczną.
Regresja logistyczna Zauważmy,że1 p =P(Y =0 X =x)oraz ( ) ( ) p πf1 (x) ln =ln =ln 1 p (1 π)f 0 (x) ( f1 (x) f 0 (x) ) ( ) π +ln, 1 π gdzie π =P(Y =1),1 π =P(Y =0). Optymalnaregułazależytylkoodilorazugęstościf 1 (x)/f 0 (x).stąd iloraz ten możemy modelować bez specyfikowania indywidualnych gęstościf i (x),i =1,0,zapomocąmodelulogistycznego.Istnieje stosunkowo szeroka klasa rozkładów prawdopodobieństwa spełniających powyższe warunki, w tym klasa wielowymiarowych rozkładów normalnych z równymi macierzami kowariancji.
Regresja logistyczna Niestety nie można oszacować parametrów regresji logistycznej wprost. Musimy w tym celu posłużyć się metodami iteracyjnymi. Najczęściej wykorzystywana jest iteracyjna ważona metoda najmniejszych kwadratów. Ostatecznie klasyfikator ma postać ˆd(x) = { 1, jeżeli ˆβ0 + ˆβ 1 x 1 + + ˆβ p x p >0.5, 0, pozatym.
Redukcja liczby zmiennych w modelu regresji logistycznej Nie zawsze model pełny jest modelem najlepszym. Często modele mniejsze charakteryzują się lepszymi właściwościami generalizacji. Najczęściej konstruuje się wpierw model pełny, a następnie ten model redukuje się korzystając z pewnego kryterium optymalizacji modelu. Tutaj za takie kryterium przyjmiemy współczynnik Akaike, którego wartość jest równa: AIC = 2logL(ˆθ NW )+2 k, gdzie L(ˆθ NW )jestfunkcjąwiarogodnościdladanegomodelu policzoną dla wartości ENW[θ], natomiast k jest liczbą parametrów w modelu. Za model optymalny uznaje się model o najmniejszej wartości tego współczynnika.
Związek między regresją logistyczną i liniową analizą dyskryminacyjną Liniowa analiza dyskryminacyjna i regresja logistyczna są prawie tymsamym.wistociesątotesamemodele,ponieważprowadzą doklasyfikatoraliniowegowzględemwektorax= (x 1,x 2,...,x p ). Różnica polega tylko na sposobie estymacji parametrów.
Związek między regresją logistyczną i liniową analizą dyskryminacyjną Łącznyrozkładpojedynczejobserwacji (X,Y) magęstość f(x,y) =f(x y)f(y) =f(y x)f(x). W liniowej analizie dyskryminacyjnej estymujemy cały rozkład łączny poprzez maksymalizację funkcji wiarogodności n n n f(x i,y i ) = f(x i y i ) f(y i ). i=1 i=1 }{{} i=1 }{{} rozkład normalny rozkład Bernoulliego W regresji logistycznej maksymalizujemy warunkową funkcję wiarogodności n i=1 f(y i x i )alezaniedbujemydrugiczynnik n i=1 f(x i): n f(x i,y i ) = i=1 n f(y i x i ) i=1 }{{} n f(x i ). i=1 }{{} pomijamy rozkład logistyczny
Związek między regresją logistyczną i liniową analizą dyskryminacyjną Ponieważ reguła klasyfikacyjna wymaga znajomości tylko f(y x), to faktycznie nigdy nie musimy estymować całego łącznego rozkładu prawdopodobieństwa. Regresja logistyczna pomija estymację gęstości f(x) rozkładu brzegowego. Model regresji logistycznej jest zatem bardziej ogólny od modelu liniowej analizy dyskryminacyjnej, ponieważ wymaga mniej założeń.
Wprowadzenie Optymalny klasyfikator bayesowski wykorzystuje prawdopodobieństwa a priori oraz funkcje gęstości. Jeżeli wielkości teniesąznane,możemyjezastąpićichestymatoramizpróby uczącej w szczególności estymatorami jądrowymi funkcji gęstości.
Jądro Definicja Jądrem będziemy nazywać każdą gładką funkcję K taką, że K(x) 0, K(x)dx =1,K(x) =K( x).
Jądro Jądro jednostajne: Jądro gaussowskie(normalne): Jądro Epanechnikowa: K(x) = 1 2 I x 1(x), K(x) = (2π) 1 2exp Jądro stopnia trzeciego: ) ( x2 I R (x), 2 K(x) = 3 4 (1 x2 )I x 1 (x), K(x) = 70 81 (1 x 3 ) 3 I x 1 (x).
Jądro Przykłady jąder: a) jądro jednostajne, b) jądro gaussowskie, c) jądro Epanechnikowa, d) jądro stopnia trzeciego.
Estymator jądrowy Definicja Dla danego jądra K i dodatniej liczby h, zwanej współczynnikiem gładkości, jądrowy estymator Rosenblatta-Parzena gęstości f jest równy ˆf n (x) = 1 n n i=1 1 h K ( x Xi h ). W celu skonstruowania jądrowego estymatora gęstości, musimy wybrać jądro K i współczynnik gładkości h. Można pokazać, że wybór jądra K nie jest sprawą kluczową. Jednakże wybór współczynnika gładkości h jest bardzo istotny.